Web pages segmentation for document selection in Question Answering (Pré-segmentation de pages web et sélection de documents pertinents en Questions-Réponses) [in French]
نویسندگان
چکیده
Dans cet article, nous présentons une méthode de segmentation de pages web en blocs de texte pour la sélection de documents pertinents en questions-réponses. La segmentation des documents se fait préalablement à leur indexation en plus du découpage des segments obtenus en passages au moment de l’extraction des réponses. L’extraction du contenu textuel des pages est faite à l’aide d’un extracteur maison. Nous avons testé deux méthodes de segmentation. L’une segmente les textes extraits des pages web uniformément en blocs de taille fixe, l’autre les segmente par TextTiling (Hearst, 1997) en blocs thématiques de taille variable. Les expériences menées sur un corpus de 500K pages web et un jeu de 309 questions factuelles en français, issus du projet Quaero (Quintard et al., 2010), montrent que la méthode employée tend à améliorer la précision globale (top-10) du système RITEL–QR (Rosset et al., 2008) dans sa tâche.
منابع مشابه
Questions-Réponses en domaine ouvert : sélection pertinente de documents en fonction du contexte de la question. (Open domain question-answering : relevant document selection geared to the question)
Title : Open domain question-answering : relevant document selection geared to the question This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a me...
متن کاملFiltering Out Bad Answers with Semantic Relations in a Web-Based Question-Answering System
De plus en plus de systèmes de question-réponses (QR) utilisent le Web pour trouver une réponse courte et précise à une question exprimée en langue naturelle. Dans cet article, nous présentons une méthode pour filtrer les mauvais candidats de réponses et re-ordonner les candidats dans notre module de QR en utilisant des relations sémantiques. L’idée est d’identifier la relation sémantique et l’...
متن کاملPersonalized Question Answering
A common problem in Question Answering – and Information Retrieval in general – is information overload, i.e. an excessive amount of data from which to search for relevant information. This results in the risk of high recall but low precision of the information returned to the user. In turn, this affects the relevance of answers with respect to the users’ needs, as queries can be ambiguous and ...
متن کاملUser evaluation of a multiple answer extraction system on the Web (Évaluation d'un système d'extraction de réponses multiples sur le Web par comparaison à des humains) [in French]
In this paper, we propose a user evaluation of Citron, a question-answering system in French which extracts answers for multiple answer questions (expecting different correct answers) in open domain from Web documents. We present here our experimental protocol and results for user evaluations which aim at (1) comparing multiple answer extraction performances of Citron and users, and (2) knowing...
متن کاملUne méthode d'évaluation de la pertinence des pages Web dans WebSum
Ce travail s’inscrit dans le cadre du projet de recherche WebSum qui est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Afin de produire le résumé, WebSum procède par le classement des réponses récupérées depuis un moteur de recherche (Google) par ordre de per...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2013